Да, это не OpenAI — на Google I/O показали LLM Gemini Flash 1.5 с дешевым контекстом на 1 миллион токенов

Google I/O, на удивление, не повезло. Крупнейшие анонсы от Google в сфере ИИ остались в тени конференции OpenAI, которая прошла 13 мая — на Хабре было сразу несколько постов о бьющей рекорды GPT-4o, в то время как о конференции Гугла была достаточно небольшая новость.

В общем, давайте вкратце расскажу, на что (предположительно) делает ставку Google, а также как я, как упоротый большой фанат LLM уже подключил Gemini Flash и GPT-4o в свой сервис VseGPT (доступ к нейросетям из России по API), и про то, как они ощущаются на русском языке.

a6ow52lnuewluspcgwp2bnqilwy.jpeg

Коротко — про конференцию


Для начала — коротко, что показали.

  • Релиз Gemini Pro 1.5 — большой нейросети на 1М контекста для обработки всего-всего. Личное мнение: пока не очень понятно, что поменялось, я видел её в превью с тем же названием.
  • Релиз Gemini Flash 1.5 — небольшая сеть с дешевой обработкой 1M контекста. О ней мы поговорим позже.
  • Встраивание ИИ во все, что только можно — Gmail, проект Astra личного голосового помощника. Тут тоже понятно — Google, видимо, не очень может обогнать сети OpenAI по качеству —, но зато у него уже есть данные пользователя (Gmail, Календарь), на основании которых можно решать деловые задачи — например, суммаризацию встреч, или ответ на почту с учетом контекста. Вероятно, будут копать туда дальше.
  • Также показали Imagen 3 — модель для генерации изображений по тексту. Выглядит довольно привлекательно, но непонятно, насколько это cherry-picking варианты (т.е. выбранные вручную оптимальные, а не средние)


Промт для Imagen 3: Three women stand together laughing, with one woman slightly out of focus in the foreground. The sun is setting behind the women, creating a lens flare and a warm glow that highlights their hair and creates a bokeh effect in the background. The photography style is candid and captures a genuine moment of connection and happiness between friends. The warm light of the golden hour lends a nostalgic and intimate feel to the image.

0ansfgtcduggswijjnfywzswoka.jpeg

  • Презентовали Veo (text-to-video) модель, конкурента SORA от OpenAI. Из ощущений при просмотре — немного мыльно; пока SORA выглядит лучше. Впрочем, и то, и другое пока не находится в публичном доступе и для тестирования недоступно.
  • Представлены новые процессоры TPU 6 Trillium для обучения ИИ. Обещают, что они более чем в 4 раза мощнее, чем предыдущее поколение — хотя все равно в первую очередь будет использовать сам Google для тренировки своих моделей.
  • Зарелизили мультимодальную Gemini Nano — это малая модель, которая будет работать локально на машине пользователя (!) и которую обещают встроить в Chrome 126 уже к 5 июня (!). Боюсь, качество у неё будет, конечно, не очень, но сам факт хотя бы постепенного переноса обработки текста с серверов на личные машины пользователя меня радует.


Теперь, когда с обязательной частью покончено, давайте перейдем к моему любимому — языковым моделям.

Gemini Flash 1.5


Первое, что бросается в глаза — 1М контекстного окна и очень низкая цена за обработку.

И то и другое достаточно важно для обычных бизнес-кейсов. Топовые сети типа GPT-4o или Claude 3 Opus — это очень круто, но целые книги или руководства на 200 страниц через них гонять прям дорого. Поэтому дешевая сеть — это «рабочая лошадка» для большинства ежедневных или автоматизированных кейсов. Релиз Gemini Nano также говорит о том, что Гугл хочет «малые сети везде и дешево».

До этого того же уровня стоимости была Claude 3 Haiku c 200К контекста — примерно в 1.5–2 раза дешевле gpt-3.5-turbo и в 15–20 раз дешевле GPT-4o. Постоянно вижу, как используют Haiku и думаю, у Gemini Flash хорошие перспективы.

Тест: 5 идей для детского праздника


У меня есть свой небольшой тест, которым я проверяю каждую сеть, которую подключаю по API — запрос «Напиши 5 идей для детского праздника»

c2pitcesdqhlqgqp7n_znowqooi.png

Не могу сказать, что тест какой-то гениальный, но для меня играет роль «насмотренность»: когда уже видел, как более 50 сетей отвечают на этот вопрос, понемногу чувствуешь общие паттерны, и «на что смотреть».

Давайте немного прокомментирую этот ответ:

  1. Правильный русский язык. Это очень хорошо — и не всегда бывает — опенсорсные сети, часто вставляют нерусские слова. Например, Llama3–70B-Instruct добавляет английские, Qwen-110B иногда добавляет иероглифы (потому что сеть китайская). Также видно нормальное сочетание падежей (тоже бывает не всегда)
  2. Структурированный Markdown-выход. Означает, что сеть чувствительна к системному промту, ему следует и неплохо знает про Markdown, включая вложенные элементы синтаксиса. Тоже бывает не всегда; также может свидетельствовать о том, что сеть специально тренировали давать ответы в виде структурированных списков (на презентации Google I/O было видно, что ответ на вопрос по письмам пользователя также дается в формате списка — это частый кейс при суммаризации)


Ну т.е. сеть уже можно сказать на уровне gpt-3.5-turbo, что неплохо — учитывая, что она дешевле.

Тест: перевод с английского на русский


Я поддерживаю в рамках опенсорсного проекта свой бенчмарк переводов с английского на русский и обычно пробую на нем все выходящие нейросети для понимания того, насколько они «могут в русский язык». Это далеко не идеальный тест —, но какое-то представление о возможностях модели он дает.

Вот скрин — нас интересует последняя колонка, она как раз отражает оценку по качеству перевода EN→RU.

8bd__lnk1ydvjpanlzhwzyy8xnq.png

Не стоит смотреть на то, что разница невелика — это метрика COMET, там небольшое увеличение может означать хороший прирост качества (например, разница между Google Translate и DeepL составляет всего-то 0.20 в пользу DeepL)

Что тут можно прокомментировать?

  • Gemini Flash набирает 89.27 — не очень много, но лучше gpt-3.5-turbo, и чуть хуже Claude 3 Haiku. Вполне приемлемо для недорогой модели.
  • Интересен результат вышедшей GPT-4o — 90.06. Это наивысший результат среди прочих сетей, кроме Claude 3 Opus — та показывает 90.75, являясь абсолютным лидером. Известно, что GPT-4o значительно выигрывает даже у GPT-4-Turbo в задачах программирования —, но если мы берем лингвистические задачи, другие сети тоже могут показывать себя очень достойно — так что, как любят говорить, «не все так однозначно». Собственно, поэтому я люблю иметь выбор.


Быстро? Быстро


Интересно, что обе компании — и OpenAI, и Google — позаботились о скорости работы своих моделей.

GPT-4o выдает около 80 токенов в секунду, Gemini Flash — 150 токенов (по отчетам скорости генерации, которые я видел), хотя для GPT-4o, это, конечно, больший подвиг, т.к. сама по себе сеть большая.

Для сравнения — типовой результат более старой GPT-4-Turbo около 25 токенов в секунду, и это было довольно неплохо. Так что сейчас можно наслаждаться быстрыми ответами.

Всё?


Да. Мне не удалось найти результатов тестов типа «поиск иголки в стоге сена» для Gemini Flash, чтобы понять, насколько она внимательно относится к контексту.

Но, думаю, в любом случае этот инструмент займет своё место в арсенале LLM-мастера.


Возможно, захочется почитать и это:

Новости, обзоры продуктов и конкурсы от команды Timeweb.Cloud — в нашем Telegram-канале


b5pjofdoxth14ro-rjsrn7sbmiy.png

© Habrahabr.ru